Mô hình probit là gì? Các nghiên cứu về Mô hình probit

Mô hình Probit là một phương pháp hồi quy dùng để ước lượng xác suất của biến nhị phân bằng cách ánh xạ đầu vào tuyến tính qua hàm phân phối chuẩn. Khác với hồi quy tuyến tính, mô hình này giả định biến tiềm ẩn phân phối chuẩn và dùng ngưỡng để quyết định kết quả nhị phân, thường áp dụng trong kinh tế học.

Giới thiệu về mô hình Probit

Mô hình Probit là một dạng hồi quy nhị phân trong thống kê và kinh tế lượng, được sử dụng để mô hình hóa xác suất xảy ra của một sự kiện nhị phân – chẳng hạn như “có” hoặc “không”, “thành công” hoặc “thất bại”, “tham gia” hoặc “không tham gia”. Mô hình giả định rằng có một biến tiềm ẩn liên tục chịu ảnh hưởng tuyến tính từ các biến độc lập và quyết định đầu ra nhị phân thông qua một ngưỡng cố định. Điểm khác biệt chính của mô hình Probit so với các mô hình hồi quy khác là nó sử dụng hàm phân phối tích lũy chuẩn (cumulative distribution function – CDF) để ánh xạ từ đầu ra tuyến tính sang xác suất thuộc khoảng [0, 1].

Phương pháp này được George A. Bliss và Chester Ittner Bliss phát triển trong nghiên cứu độc lập vào thập niên 1930 để phân tích dữ liệu sinh học trong nghiên cứu độc chất học và đã trở thành một công cụ tiêu chuẩn trong các lĩnh vực như kinh tế học hành vi, tiếp thị, y tế công cộng và nghiên cứu xã hội học, nơi dữ liệu phản ánh lựa chọn nhị phân. Tính chính xác cao, khả năng mô hình hóa xác suất hợp lý, và sự phù hợp về lý thuyết khi dữ liệu có phân phối chuẩn tiềm ẩn đã giúp Probit duy trì vị trí là một công cụ phân tích mạnh mẽ.

Cơ sở lý thuyết và công thức mô hình

Mô hình Probit dựa trên một giả định cơ bản rằng có một biến tiềm ẩn Y Y^* không quan sát được, liên hệ tuyến tính với các biến độc lập X X thông qua một tập hợp hệ số β \beta , cộng với sai số ngẫu nhiên ε \varepsilon :

Y=Xβ+εY^* = X\beta + \varepsilon

Giá trị của biến quan sát được Y Y được xác định bằng cách kiểm tra xem Y Y^* có vượt qua một ngưỡng nhất định hay không, thông thường là 0:

Y={1neˆˊY>00neˆˊY0Y = \begin{cases} 1 & \text{nếu } Y^* > 0 \\ 0 & \text{nếu } Y^* \leq 0 \end{cases}

Giả định rằng εN(0,1) \varepsilon \sim \mathcal{N}(0,1) , tức là phân phối chuẩn với trung bình 0 và phương sai 1. Do đó, xác suất để biến phụ thuộc nhận giá trị 1 (biến xảy ra) là:

P(Y=1X)=Φ(Xβ)P(Y = 1 \mid X) = \Phi(X\beta)

Trong đó Φ\Phi là hàm phân phối tích lũy chuẩn chuẩn, định nghĩa như sau:

Φ(z)=z12πet2/2dt\Phi(z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi}} e^{-t^2/2} \, dt

Do không có dạng đóng cho hàm Φ(z)\Phi(z), việc ước lượng và phân tích dựa trên mô hình Probit đòi hỏi phải sử dụng các phương pháp số và công cụ phần mềm thống kê chuyên biệt. Các hệ số β\beta trong mô hình không thể diễn giải trực tiếp như trong hồi quy tuyến tính vì chúng biểu thị ảnh hưởng tuyến tính đến biến tiềm ẩn chứ không trực tiếp đến xác suất.

Sự khác biệt giữa mô hình Probit và Logit

Mặc dù cả mô hình Probit và Logit đều được sử dụng để xử lý các bài toán phân loại nhị phân, chúng khác nhau về mặt kỹ thuật ở dạng hàm liên kết (link function) – tức là cách ánh xạ từ đầu ra tuyến tính sang xác suất. Trong khi Probit sử dụng hàm phân phối chuẩn tích lũy Φ(z)\Phi(z), thì Logit sử dụng hàm logistic:

Λ(z)=11+ez\Lambda(z) = \frac{1}{1 + e^{-z}}

Hàm phân phối chuẩn có phần đuôi nhẹ hơn so với hàm logistic, điều này khiến mô hình Probit ít nhạy cảm hơn với các giá trị ngoại lai ở hai đầu phân phối. Trong thực tế, sự khác biệt giữa kết quả hai mô hình là không đáng kể nếu dữ liệu không cực đoan, và sự lựa chọn giữa chúng thường mang tính thực dụng hoặc dựa vào giả định phân phối ngầm.

Ví dụ, khi nghiên cứu hành vi người tiêu dùng với giả định rằng mỗi cá nhân có một "ngưỡng kỳ vọng" chịu ảnh hưởng tuyến tính từ các yếu tố như giá cả, quảng cáo, thu nhập – thì mô hình Probit cung cấp nền tảng lý thuyết vững chắc hơn vì giả định phân phối chuẩn phù hợp với nhiều hiện tượng tâm lý và xã hội.

Tham khảo thêm tại: UCLA - Probit Regression Analysis

Ứng dụng thực tiễn của mô hình Probit

Trong thực tế, mô hình Probit được ứng dụng rộng rãi trong các tình huống mà biến đầu ra là một lựa chọn nhị phân. Dưới đây là một số ví dụ phổ biến:

  • Kinh tế lao động: Dự đoán xác suất một cá nhân tham gia thị trường lao động dựa trên các yếu tố như tuổi, trình độ học vấn, tình trạng hôn nhân. Điều này giúp chính phủ hoặc tổ chức điều chỉnh chính sách việc làm.
  • Tài chính: Phân tích xác suất vỡ nợ (default probability) của các doanh nghiệp hoặc cá nhân. Mô hình Probit giúp các tổ chức tài chính đánh giá rủi ro tín dụng một cách có hệ thống, bằng cách đưa vào các biến như tỷ lệ nợ, thu nhập, lịch sử tín dụng.
  • Y tế công cộng: Dự đoán xác suất mắc bệnh hoặc khả năng tiếp cận dịch vụ y tế dựa trên đặc điểm nhân khẩu học và hành vi cá nhân. Ví dụ, xác suất một người tiêm vaccine COVID-19 dựa trên thu nhập, niềm tin cá nhân và thông tin truyền thông nhận được.
  • Tiếp thị và hành vi tiêu dùng: Dự báo xác suất mua hàng, lựa chọn thương hiệu hoặc phản ứng với chiến dịch quảng cáo dựa trên nhân khẩu học, tâm lý học hành vi hoặc lịch sử mua hàng.

Ưu điểm của Probit trong các tình huống trên là khả năng ánh xạ một mối quan hệ tuyến tính về ảnh hưởng của các yếu tố độc lập thành xác suất, phù hợp với các quyết định có tính lựa chọn (binary choice models).

Tham khảo thêm: Probit Models in Epidemiological Research - NCBI

Ước lượng tham số và kỹ thuật tính toán

Việc ước lượng hệ số β\beta trong mô hình Probit không thể thực hiện bằng phương pháp bình phương tối tiểu như trong hồi quy tuyến tính, do bản chất phi tuyến của hàm liên kết. Thay vào đó, phương pháp được sử dụng là Tối đa hóa hàm hợp lý (Maximum Likelihood Estimation – MLE). Mục tiêu là tìm tập hợp tham số β\beta sao cho xác suất quan sát được tập dữ liệu là lớn nhất.

Hàm hợp lý (likelihood function) đối với mô hình Probit được viết như sau:

L(β)=i=1nΦ(Xiβ)Yi[1Φ(Xiβ)]1Yi\mathcal{L}(\beta) = \prod_{i=1}^{n} \Phi(X_i \beta)^{Y_i} [1 - \Phi(X_i \beta)]^{1 - Y_i}

Logarit của hàm hợp lý – gọi là log-likelihood – thường được tối đa hóa vì dễ xử lý hơn trong tính toán:

(β)=i=1nYilogΦ(Xiβ)+(1Yi)log[1Φ(Xiβ)]\ell(\beta) = \sum_{i=1}^{n} Y_i \log \Phi(X_i \beta) + (1 - Y_i) \log [1 - \Phi(X_i \beta)]

Do hàm Φ(Xβ)\Phi(X\beta) không có biểu thức giải tích đóng, quá trình tối ưu cần dùng các thuật toán số như Newton-Raphson, BFGS hoặc Expectation-Maximization (EM) trong trường hợp dữ liệu không đầy đủ hoặc có yếu tố ngẫu nhiên. Các phần mềm thống kê phổ biến như R, Stata, SAS, và Python (statsmodels) đều hỗ trợ các công cụ mạnh mẽ để ước lượng mô hình Probit.

Trong thực hành, cần kiểm tra hội tụ của thuật toán, xác định tiêu chí dừng hợp lý, và đánh giá độ ổn định của nghiệm tìm được thông qua việc kiểm tra đạo hàm bậc hai (ma trận Hessian) và phương sai ước lượng của các hệ số.

Kiểm định và đánh giá mô hình

Sau khi ước lượng mô hình, bước tiếp theo là đánh giá mức độ phù hợp của mô hình với dữ liệu. Một số công cụ phổ biến để kiểm định bao gồm:

  • Wald Test: Kiểm định giả thuyết rằng một hệ số βj=0\beta_j = 0. Nếu giá trị thống kê Wald lớn và p-value nhỏ hơn ngưỡng (thường là 0.05), ta bác bỏ giả thuyết và kết luận rằng biến độc lập có ý nghĩa thống kê.
  • Likelihood Ratio Test (LR Test): So sánh log-likelihood của mô hình đầy đủ với một mô hình rút gọn không có biến đang kiểm tra.
  • McFadden's Pseudo R²: Được tính theo công thức 1fullnull1 - \frac{\ell_{\text{full}}}{\ell_{\text{null}}}, với full\ell_{\text{full}} là log-likelihood của mô hình đầy đủ, và null\ell_{\text{null}} là log-likelihood của mô hình chỉ có hằng số.
  • Kiểm định Hosmer-Lemeshow: Kiểm tra mức độ phù hợp tổng thể bằng cách phân nhóm xác suất dự đoán và so sánh tần suất quan sát.
  • ROC Curve và AUC: Vẽ đường cong đặc trưng hoạt động của bộ phân loại để đánh giá khả năng phân biệt giữa hai lớp.

Việc kiểm định cần đi kèm với đánh giá định tính về ý nghĩa logic của các hệ số và mối quan hệ nhân quả giả định. Không nên dựa hoàn toàn vào số liệu thống kê nếu mô hình không hợp lý về lý thuyết hoặc quá khớp (overfitting) với dữ liệu huấn luyện.

Ưu và nhược điểm của mô hình Probit

Ưu điểm:

  • Mô hình hóa xác suất hợp lý: Xác suất luôn nằm trong khoảng (0,1), không như hồi quy tuyến tính có thể cho giá trị ngoài biên.
  • Giả định phân phối chuẩn phù hợp: Khi biến tiềm ẩn thực sự có phân phối chuẩn, Probit cho kết quả ổn định và đáng tin cậy.
  • Thích hợp với dữ liệu trong khoa học xã hội: Vì phản ánh cấu trúc ra quyết định nhị phân theo cơ chế ngưỡng.

Nhược điểm:

  • Khó giải thích hệ số: Hệ số β\beta không phản ánh trực tiếp sự thay đổi xác suất như trong hồi quy tuyến tính. Phải tính thêm đạo hàm của hàm liên kết để xác định tác động biên (marginal effect).
  • Tính toán phức tạp: Hàm phân phối chuẩn không có dạng đóng, đòi hỏi kỹ thuật số và phần mềm hỗ trợ.
  • Không dễ mở rộng trực tiếp cho các dạng dữ liệu phân loại có thứ tự hoặc đa cấp: Cần đến các biến thể riêng như Ordered Probit hoặc Multinomial Probit.

Biến thể và mở rộng của mô hình Probit

Để mở rộng phạm vi áp dụng, mô hình Probit có nhiều biến thể thích nghi với các loại dữ liệu khác nhau:

  • Ordered Probit: Dùng cho dữ liệu phân loại có thứ tự, như mức độ hài lòng (1 đến 5 sao). Thay vì hai lựa chọn, có nhiều ngưỡng để xác định từng mức.
  • Multinomial Probit (MNP): Mô hình hóa lựa chọn đa dạng (nhiều hơn hai lựa chọn) mà không giả định tính độc lập của các lựa chọn không liên quan (IIA). Thích hợp cho các bài toán lựa chọn phương tiện giao thông hoặc thương hiệu sản phẩm.
  • Random Effects Probit: Dùng trong dữ liệu bảng (panel data), kiểm soát sự khác biệt không quan sát được giữa các cá thể qua thời gian.
  • Bivariate Probit: Xử lý hai phương trình Probit liên quan có sai số tương quan, thường áp dụng trong các nghiên cứu có hiện tượng lựa chọn mẫu (sample selection) hoặc biến endogenous nhị phân.

Các mô hình mở rộng này giúp nhà nghiên cứu giải quyết các vấn đề phức tạp hơn trong hành vi và ra quyết định, đồng thời giữ lại nền tảng lý thuyết chắc chắn của mô hình Probit gốc.

Tham khảo thêm: Amemiya, T. (1975). Qualitative Response Models. JSTOR

Kết luận

Mô hình Probit là một công cụ thống kê hiệu quả để xử lý các vấn đề phân loại nhị phân, đặc biệt khi có cơ sở lý thuyết cho thấy rằng quyết định được đưa ra bởi một biến tiềm ẩn liên tục với phân phối chuẩn. Ưu điểm về mặt lý thuyết, độ chính xác trong mô hình hóa xác suất, và sự đa dạng trong các biến thể ứng dụng khiến Probit trở thành một lựa chọn phù hợp cho nhiều loại dữ liệu và lĩnh vực nghiên cứu. Tuy nhiên, người dùng cần lưu ý đến những giới hạn về mặt diễn giải, tính toán và chọn mô hình đúng với đặc điểm dữ liệu để đạt được kết quả phân tích đáng tin cậy.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề mô hình probit:

Tính Toán Các Tác Động Tương Tác và Sai Số Chuẩn Trong Các Mô Hình Logit và Probit Dịch bởi AI
Stata Journal - Tập 4 Số 2 - Trang 154-167 - 2004
Bài báo này giải thích lý do tại sao việc tính toán hiệu ứng giới hạn của sự thay đổi trong hai biến trở nên phức tạp hơn trong các mô hình phi tuyến so với các mô hình tuyến tính. Lệnh inteff tính toán hiệu ứng giới hạn chính xác của sự thay đổi trong hai biến tương tác cho mô hình logit hoặc probit, cũng như các sai số chuẩn chính xác. Lệnh inteff vẽ đồ thị hiệu ứng tương tác và lưu kết...... hiện toàn bộ
Sự phụ thuộc nội sinh trong các mô hình phản ứng Probit Dịch bởi AI
Political Analysis - Tập 18 Số 2 - Trang 138-150 - 2010
Chúng tôi xem xét các phương pháp truyền thống để loại bỏ sự thiên lệch do phụ thuộc nội sinh trong các mô hình hồi quy, bao gồm mô hình hồi quy tuyến tính và mô hình probit. Được biết rằng quy trình hai bước của Heckman thường không nên sử dụng trong mô hình probit: từ góc độ lý thuyết, điều này không thỏa mãn và các phương pháp dự đoán có khả năng cho kết quả tốt hơn. Tuy nhiên, có những...... hiện toàn bộ
#endogeneity #probit model #Heckman two-step procedure #likelihood methods #identification conditions
CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN SỰ HÀI LÒNG CỦA KHÁCH HÀNG TRONG HOẠT ĐỘNG CỦA CÔNG TY TỔ CHỨC SỰ KIỆN
TNU Journal of Science and Technology - Tập 209 Số 16 - Trang 123 - 127 - 2019
Số lượng các công ty tổ chức sự kiện tại Việt Nam nhiều, nhưng chỉ số ít trong đó là chuyên nghiệp và có thực lực. Phần lớn các doanh nghiệp tổ chức sự kiện chưa chủ động được nhân lực, vật lực và công nghệ mà hoạt động kết hợp hợp tác, kết nối, thuê các đơn vị riêng lẻ khác nhau như khách sạn, trung tâm hội nghị, nhà hàng, đơn vị quảng cáo, cung ứng thiết bị… Chính vì vậy, hoạt động tổ chức ...... hiện toàn bộ
#Công ty sự kiện #cạnh tranh #hài lòng #dịch vụ #mô hình probit.
Các yếu tố quyết định hợp tác R&D trong các doanh nghiệp vừa và nhỏ Dịch bởi AI
Small Business Economics - Tập 39 - Trang 419-436 - 2011
Chúng tôi nghiên cứu các yếu tố quyết định hợp tác nghiên cứu và phát triển (R&D) trong các doanh nghiệp vừa và nhỏ (SMEs). Sử dụng dữ liệu cấp doanh nghiệp từ Khảo sát Đổi mới sáng tạo Hàn Quốc năm 2002 và áp dụng mô hình probit với lựa chọn mẫu, chúng tôi phát hiện rằng sự lan tỏa kiến thức từ bên ngoài có tác động đáng kể và tích cực đến quyết định của SMEs trong việc tham gia hợp tác R&D. Đặc ...... hiện toàn bộ
#Hợp tác R&D #doanh nghiệp vừa và nhỏ #lan tỏa kiến thức #khảo sát đổi mới sáng tạo #mô hình probit.
Bệnh Mãn Tính, Lựa Chọn Điều Trị và Tham Gia Lực Lượng Lao Động Dịch bởi AI
International Journal of Health Care Finance and Economics - Tập 3 - Trang 167-181 - 2003
Sự lựa chọn liên quan đến việc tham gia lực lượng lao động và điều trị y tế ngày càng trở nên gắn bó với nhau. Những tiến bộ công nghệ mang đến cho bệnh nhân những lựa chọn mới và có thể tạo điều kiện cho việc duy trì việc làm cho số lượng ngày càng tăng các cá nhân mắc bệnh mãn tính. Chúng tôi nghiên cứu các quyết định chung về công việc/điều trị của những bệnh nhân bệnh thận giai đoạn cuối, một ...... hiện toàn bộ
#bệnh mãn tính #lựa chọn điều trị #tham gia lực lượng lao động #bệnh thận giai đoạn cuối #mô hình probit #quyết định chung
Mô hình xác suất đồng thuận trong bảng phân loại chéo Dịch bởi AI
Springer Science and Business Media LLC - Tập 21 - Trang 49-57 - 1987
Đối với các bảng phân loại chéo có biến phản hồi thứ tự, các mô hình logit và probit được hình thành để tính xác suất rằng một cặp chủ thể là đồng thuận. Đối với các bảng đa chiều, các mô hình tổng quát được đưa ra để tính xác suất rằng phản hồi tại một cài đặt biến giải thích vượt quá phản hồi tại một cài đặt khác. Các thước đo liên quan đến sự liên kết được thảo luận cho các bảng hai chiều.
#đồng thuận #bảng phân loại chéo #mô hình logit #mô hình probit #biến phản hồi thứ tự #thước đo liên kết
Các nhân tố tác động đến việc sử dụng dịch vụ nha khoa ở người lớn—Trường hợp của Phần Lan Dịch bởi AI
Health Care Management Science - Tập 8 - Trang 335-345 - 2005
Chúng tôi xem xét các nhân tố quyết định việc sử dụng dịch vụ nha khoa, đặc biệt là vai trò của các yếu tố cung ứng trong quy trình ra quyết định sử dụng, bằng cách sử dụng dữ liệu từ Khảo sát Y tế Phần Lan năm 1996. Trong mô hình hai phần, việc tìm kiếm dịch vụ được mô hình hóa bằng mô hình probit nhị biến với sự xem xét đến trí nhớ của nha sĩ, trong khi số lần khám nha sĩ dương tính được mô hình...... hiện toàn bộ
#dịch vụ nha khoa #yếu tố cung ứng #chăm sóc sức khỏe #mô hình probit nhị biến #Phần Lan
Lựa chọn biến Bayesian thưa trong mô hình probit hạt nhân để phân tích dữ liệu có chiều cao Dịch bởi AI
Computational Statistics - Tập 35 - Trang 245-258 - 2019
Trong bài báo này, chúng tôi phát triển một phương pháp lựa chọn biến Bayesian thưa trong mô hình probit hạt nhân cho phân loại dữ liệu có chiều cao. Đặc biệt, chúng tôi thiết lập một phân phối prior tương quan trên kích thước mô hình và một phân phối prior thưa trên các tham số hồi quy. Các thuật toán tính toán dựa trên MCMC được phác thảo để tạo ra các mẫu từ các phân phối hậu nghiệm. Các nghiên...... hiện toàn bộ
#Lựa chọn biến #Bayesian #thưa #mô hình probit #hạt nhân #phân loại dữ liệu chiều cao.
Quay trở lại với các nguyên tắc cơ bản: Chỉ số MES của Comanor–Wilson được xem xét lại Dịch bởi AI
Small Business Economics - Tập 32 - Trang 111-120 - 2007
Bài báo hiện tại cố gắng điều tra tính hợp lệ của thước đo kích thước hiệu quả tối thiểu của Comanor–Wilson (MES). Giả thuyết cơ bản là các doanh nghiệp đã hết quy mô kinh tế thì đang ở trong mô hình hoàn vốn không tăng. Các doanh nghiệp đó cũng được giả định có kích thước lớn hơn MES ước lượng dựa trên doanh thu (doanh thu tổng), việc làm hoặc tài sản cố định. Phân tích dữ liệu hiệu quả (DEA) đượ...... hiện toàn bộ
#Kích thước hiệu quả tối thiểu #quy mô hoàn vốn #phân tích dữ liệu hiệu quả #mô hình probit #hiệu quả kĩ thuật
Tác động của giáo dục đại học đến khả năng tự kinh doanh ở các quốc gia chuyển tiếp: Phân tích biến công cụ trên mẫu cắt ngang của 29 quốc gia Dịch bởi AI
International Entrepreneurship and Management Journal - Tập 13 - Trang 487-500 - 2016
Chúng tôi đã sử dụng một bộ dữ liệu cắt ngang chất lượng cao, bao gồm 29 quốc gia chuyển tiếp đa dạng, để tìm hiểu tác động của giáo dục đến khả năng tự kinh doanh của người dân bằng các mô hình probit tiêu chuẩn và biprobit với biến công cụ nhằm giải quyết vấn đề nội sinh. Các phát hiện của chúng tôi cho thấy tác động tiêu cực của giáo dục đại học đến khuynh hướng tự kinh doanh. Phát hiện này vẫn...... hiện toàn bộ
#giáo dục đại học #tự kinh doanh #quốc gia chuyển tiếp #mô hình probit #mô hình biprobit #biến công cụ #nội sinh #phân tích dọc
Tổng số: 10   
  • 1